扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
2.4 所有操作的并行化
1、聚集操作——在各个子任务执行聚集函数,必要时在全局执行最后的处理。对 Group By 子局来说,重新分片可能比直接采用输入数据具有更好的并行性。
2、集合操作——采用 collocated, repartitioned 策略。注意 UNION 可以是一个 N 元操作。
3、带有子查询的 Insert 语句, Update 和 Delete 语句—— Insert 语句和子查询可能是 collocated 。或者采用 directing 方式。 Update 和 Delete 总是和相应的查询 collocated ( Update 如果发生在分片属性上,还需要考虑重新分片受到影响的元组)。
4、外连接——主要的策略与普通的连接一致,但是要避免产生多个由于没有匹配元组而产生的结果元组。
5、子查询——把子查询的结果发送到计算包含子查询的谓词的节点采用 collocated, directed, broadcast 方法。
3. 子查询的处理
嵌套查询的例子:
select *
from t1
where t1.a in (select b
from t2
where t2.c = t1.a and t2.d in (select b
from t3
where t3.a = 10
));
最里面的子查询只需要执行一次即可。但是下面的查询则不然:
select *
from t1
where t1.a in ( select b
from t2
where t2.c = t1.a and t2.d in ( select b
from t3
where t3.a = t1.f
));
子查询处理需要注意的问题包括:
(1) 避免为每个外查询产生的元组启动一个子查询,这样的代价太大了;
(2) 保证产生外查询元组的不同节点不会因为子查询的执行而串行化;
(3) 保证正确的外查询节点得到执行的结果;
(4) 尽量下移谓词,从而减少数据的传输。
我们用一个简单的一层相关查询来看看 DB2 是如何处理嵌套查询的:
select *
from t1
where t1.a > ( select avg(t2.b)
from t2
where t2.c = t1.d
);
婵犵鈧啿鈧綊鎮樻径鎰畺闁靛ň鏅滄慨婊堟偨椤栨稓鎽冮柟鐑╂櫊瀹曟岸宕堕埡鍌滄殸闂佽鍨伴崢鏍姳閿涘嫭鍠嗘い銈呭姬婵☆偅婢樺Λ妤呮偂濞嗘挸瀚夐柍褜鍓熷顒侊紣娓氣偓閻涙捇鏌涘┑鍛樂缂佹鐭傞獮搴ㄥ焵椤掑嫬瀚夋い鏍ㄧ懁缁诲棝鏌熼褍鐏茬紒杈ㄧ箞閺屽洭鏁愰崟顓犳澖闁荤姳闄嶉崹钘壩i崟顖涘殜闁硅泛顫曢埀顒€锕︾槐鏃堝箣閻愬弬妤呮煛閸偄鐏﹂柛瀣墬缁傛帞鎹勯搹瑙勵啈闂佸搫瀚烽崹閬嶅磻瀹ュ鍎嶉柛鏇ㄥ墯娴犳ê霉閿濆棗鈻曢柍褜鍓氶弻銊ф閻愬鈻曢悗锝傛櫇椤忛亶鏌曢崱顓熷